CS231n计算机视觉Lecture 1笔记

前言:目前做深度学习也有一段时间了,系统的知识也学了很多,但是大多数都是自己在网上所获得的零散的知识,最近看了李飞飞的斯坦福网上公开课,觉得可以好好的巩固一下基础,对每个Lecture做一下笔记,DeepLearning,DeepLove!

Lecture 1: Introduction

众所周知,计算机视觉是一个多学科融合的领域,从计算机科学到数学,从生物学到心理学,计算机视觉都有很大的用武之地:

视觉的由来与机器视觉的演变

地球诞生生命之初,谁都不知道地球是什么样子的——因为没有生物有眼睛,慢慢的,为了更好的捕食,5亿年前第一批生物进化出了最基础的视觉,又经过漫长的时间,等到人类已经可以制造出机器,最初的机器视觉物体产生了:照相机!

而后,在20世纪,计算机视觉(机器视觉)的发展空前迅速,时间来到20世纪中叶这个重要的节点,两名哈弗的学生为了了解视觉神经的处理机制,做了一个实验:将金属探针接入猫的基础视觉皮质层中(primary visual cortex,处理大量和视觉相关的工作,但是位置在后脑勺处,并且大脑中有接近50%的神经元都参与着视觉处理的过程),并记录神经元的状态,发现猫在注视照片时并不会引起神经元的活动,但是当他们在切换照片的过程中,会激活部分神经元,这是开启深度学习的一个重大发现,他们得到的结论是:视觉处理流程的第一步,是对简单的形状结构处理,如边缘,排列等,并且凭借这一发现获得了1981年的诺贝尔医学奖。

计算机视觉在这一发现之后有了突飞猛进的发展:
而现代计算机视觉领域的先驱是谁呢?是Lary Roberts在1963年的论文《Block world》,他的论文中提到边缘是决定物体形状的关键,并且解析出物体边缘的信息,属于行业内的开创性文章;

而后1966年,麻省理工成立人工智能研究室(MIT AI lab),使得计算机视觉成为人工智能中最为发展快速的领域;

接下来是David Marr,他在1970年的Vision一书中提出了另一个可以称之为深度学习基石的理论:视觉是分层的,并且我们可以建立一个分层的模型,将图像分为边缘结构->2.5D结构(因为物体之间是存在遮挡的,但是人类的大脑是可以分辨出来的,而且世界是三维的,但是我们的视觉成像是二维的)->3D结构,这是一个最基础但是也很抽象的视觉认知模型;

而后MIT与斯坦福分别对视觉模型进行研究,并且建立了简单的模型,MIT模型认为一切物体都是由简单的形状组成,例如圆柱体,只是观察角度不同;而斯坦福则认为物体是由简单形状构成,但是形状之间是由弹簧连接起来的(哈哈哈);

接下来进入90年代,计算机视觉进入彩色世界,Normalized Cut被提出用来进行图像分割,人类视觉对于图形的分类是很奇特的,而计算机却没有办法做到完美的分组,这也使得感知分组变成视觉领域最为重要的问题,即使到现在也没有得到很好的答案;

接下来计算机视觉跳入了一个新的领域:物体识别领域,1999年的物体识别与2001年的人脸检测是这一领域的两大标志性产物,这一领域也变成目前人工智能主攻的课题;

计算机视觉的崛起

接下来进入20世纪,很多的挑战比赛加速了深度学习的进程,2006-2012年的PASCAL Vsiual Object Challenge 是一个将图片进行20分类任务的挑战,比赛持续的几年分类错误率在持续下降;

到了2009年,IMAGENET挑战横空出世,包含1000种类别的140万张标注图像提供给参赛者进行认知分类,而IMAGENET比赛进行的第三年,也就是2012年,卷积神经网络一举夺魁拿下当年比赛的桂冠,这也就是深度学习理论的开端,并且以后每一年的IMAGENET冠军都是卷积神经网络显示出最好的成绩;


其实早在1998年,LeCun就使用了卷积神经网络来进行了手写字的识别,而2012年冠军的AlexNet几乎是照搬的LeCun的网络,除了激活函数由Sigmoid变成了ReLU,而能够让卷积神经网络能有如此之进化的效果很大一部分程度上要归功于硬件的革新;

计算机视觉接下来的挑战

计算机视觉所要专注的问题其实远远不止物体识别,对图片进行密集标记,动作识别,识别与3D整合,这些都是深度学习面临的挑战;计算机视觉针对图像,若是可以让计算机进行“看图说话”,或者让计算机理解图片中的深层语义,这些都是计算机视觉可以达到且应该达到的目标;


深度学习有着很好的发展前景,即使目前正是深度学习的“瓶颈期”,可它在图像领域仍然走在各种方法的前列,学好深度学习,走向美好人生,我们的梦想是星辰与大海!

资料来源:

  1. 斯坦福CS231n李飞飞计算机视觉视频课程
  2. CS231n官方笔记授权翻译总集篇
  3. CS231n官方PPT